2016-12-21 2 views
0

Я новичок в JAVA SAX. У меня большой файл XML, и я хочу извлечь из него некоторую информацию. Ниже приводится XML файл, что я хочу, чтобы извлечь и код:Как получить значение конкретного элемента из большого XML

Выписка из XML файла:

... 
    <Synset baseConcept="3" id="mizaAj_n2AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="hyponym" targets="TaboE_n2AR"/> 
      <SynsetRelation relType="hyponym" targets="TaboE_n2AR"/> 
      <SynsetRelation relType="hypernym" targets="ragobap_n4AR"/> 
      <SynsetRelation relType="hypernym" targets="ragobap_n4AR"/> 
      <SynsetRelation relType="hypernym" targets="Tiybap_Aln~afos_n1AR"/> 
      <SynsetRelation relType="hypernym" targets="Tiybap_Aln~afos_n1AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04623612-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
     <Synset baseConcept="3" id="ragobap_n4AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="antonym" targets="mizaAj_n2AR"/> 
      <SynsetRelation relType="antonym" targets="mizaAj_n2AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04624826-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
     <Synset baseConcept="3" id="tasal~uT_n1AR"> 
      <SynsetRelations> 
      <SynsetRelation relType="has_instance" targets="simap_n1AR"/> 
      <SynsetRelation relType="is_instance" targets="simap_n1AR"/> 
      </SynsetRelations> 
      <MonolingualExternalRefs> 
      <MonolingualExternalRef externalReference="04625882-n" externalSystem="PWN30"/> 
      </MonolingualExternalRefs> 
     </Synset> 
... 

Я хочу:

hyponym: 2 
hypernym: 4 
antonym: 2 
has_instance: 1 
is_instance:1 

кода (основной класс и мой обработчик):

import java.io.IOException; 
    import org.xml.sax.SAXException; 
    import org.xml.sax.XMLReader; 
    import org.xml.sax.helpers.XMLReaderFactory; 

    public class Main { 

     public static void main(String[] args) throws SAXException, IOException{ 

      XMLReader p = XMLReaderFactory.createXMLReader(); 
      p.setContentHandler(new handler()); 
      p.parse("test1.xml"); 
} 
    ---------------------------------------- 
import org.xml.sax.helpers.DefaultHandler; 

    public class handler extends DefaultHandler { 

     @Override 
     public void startElement(String SpacenameURI, String localName, 
       String qName, Attributes attrs) { 

      System.out.println("qname = " + qName); 
      String node = qName; 

      if (attrs != null) { 
       for (int i = 0; i < attrs.getLength(); i++) { 
        //nous récupérons le nom de l'attribut 
        String aname = attrs.getLocalName(i); 
        //Et nous affichons sa valeur 
        System.out.println("Attribut " + aname + " valeur : " + attrs.getValue(i)); 
       } 
      } 
     } 
    } 
+0

Что ваш вопрос? – geoffreydv

+0

Я упомянул, что хочу. Я хочу получить некоторую информацию из файла XML. Мой код не дает мне правильной информации. – bttX

+0

Итак, если я правильно понимаю, вам не нужны значения, но вы хотите подсчитать вхождения некоторых конкретных элементов в файл. Вы хотите, чтобы подсчеты за элемент Synset или только по всему файлу в целом? – geoffreydv

ответ

0
public Map<String, Integer> countElements(File xmlFile) { 

    Map<String, Integer> counts = new HashMap<>(); 

    try { 
     XMLInputFactory inputFactory = XMLInputFactory.newInstance(); 
     FileInputStream fileInputStream = new FileInputStream(xmlFile); 
     XMLStreamReader reader = inputFactory.createXMLStreamReader(fileInputStream); 

     while(reader.hasNext()) { 
      reader.next(); 
      if(reader.isStartElement() && reader.getLocalName().equals("SynsetRelation")) { 
       String relTypeValue = reader.getAttributeValue("", "relType"); 

       if(!counts.containsKey(relTypeValue)) { 
        counts.put(relTypeValue, 0); 
       } 

       counts.put(relTypeValue, counts.get(relTypeValue) + 1); 
      } 
     } 

     fileInputStream.close(); 
    } catch (XMLStreamException | IOException e) { 
     e.printStackTrace(); 
    } 

    return counts; 
} 

В этом коде используется считыватель Stream, то есть он будет загружать только один элемент за раз в памяти. Это делает его эффективным даже для больших файлов.

Карта используется для отслеживания отсчетов. Каждый раз, когда я сталкиваюсь с элементом «SynsetRelation», сначала проверяю, уже ли он подсчитан, а затем увеличиваю счетчик.

В результате получается карта, содержащая подсчеты на обнаруженное значение.

Вы бы использовать его как это в главном классе:

public class Main { 
    public static void main(String[] args) { 
     Map<String, Integer> results = countElements(new File("your file location here.xml")); 
    } 
} 
+0

спасибо человеку, но можете прокомментировать код, чтобы я мог его понять и изменить в соответствии с потребностями .. Снова танки;) – bttX

+0

Добро пожаловать. Я дал дополнительный текст ниже кода, чтобы уточнить его. Если есть определенные части, которые вы смущены, спросите прочь! – geoffreydv

+0

Я добавил пример использования в нижней части моего ответа, вы должны просто добавить метод countElements как частный статический метод в основной класс или создать новый класс, в котором есть метод, а затем вызвать это. (например, новый XmlCounter(). countElements();) – geoffreydv

Смежные вопросы